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) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem 
Spracherkennungssystem 

) Mit der Erfindung wird eine Methode zur Bestlmmung der 
Ahnlichkeiten von Lauten Qber verschiedene Sprachen hin- 
weg angegeben. Wefterhin wird ein neuer Ansatz zur hidden 
Markov Modellierung von muftHJngualen Phonemen angege- 
ben. Bel der vorgeschlagenen Methode zur akustlsch phone- 
tischen Modellierung werden sowohl sprachspezifische als 
such sprachunabhangige Eigenschaften bei der Zusammen- 
fassung der Wahrscheinlichkeftsdlchten fur unterschiedliche 
hidden Markov LautmodeHe in verschiedenen Sprachen 
angegeben. 
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Beschreibung 

Die Erfindung bezieht sich auf hidden Markov ModeUe fQr Spracherkeiinungssysteme, wobei ein solches 
ModeD fur mehrere Sprachen herangezogen werden soil indem die akustischen tmd phonetischen AhnEchkehea 
5 zwischen den unterschiedlichen Sprachen ansgenutzt werden, 

Ein Spracherkennungssystem fur mehrere Sprachen ist aus derWO 95/02879 Al bekannt 
Bei der Spracherkennung besteht ein groBes Problem darin, dafi fur jede Sprache in welche die Spracherken- 
nungstechnologie eingefuhrt werden soD, neue akustisch phonetische ModeUe tramiert werden mQssen um eine 
Landeranpassung durchfuhren zu konnen. Meistens werden bei gangigen Spracherkenmmgss y s t emen hidden 
to Markov ModeUe zur Modelliemng der sprachspezifischen Laute verwendet Aus diesen statistisch modeffierten 
LautmodeDen werden im AnschluB akustische Wortmodelle zusammengefugt welche wihrend eines Suchpro- 
zesses beim Spracherkennungsvorgang erkannt werden. Zum Training dieser Lautmodelle werden sehr umfang- 
reiche Sprachdatenbanken bendtigt deren Sammlung und Aufbereitung einen auBerst kosten- and zehmtensi- 
ven Prozefi darsteOt Hierdurch entstehen NachteQe bei der Portierung einer Spracherkennnngstechnologie von 
is einer Sprache in eine wehere Sprache, da die ErsteOung einer neuen Sprachdatenbank einerseits eine Verteue- 
rung des Produktes bedeutet und andererseits eine zeitfiche Verzdgerung bei der MarkteinfOhrung bedingt 

In gangigen erwerbbaren Spracherkennungssystemen werden ausschliefilich sprachspezifische ModeUe ver- 
wendet Zur Portierung dieser Systeme in eine neue Sprache werden umfangreiche Sprachdatenbanken gesam- 
melt und aufbereitet AnschfieBend werden die Lautmodelle fur die neue Sprache mh diesen gesammehen 
20 Sprachdaten von Gnmd auf neu trainiert 

Um den Aufwand und die Zeitverzdgenmg bei der Portierung von Spracherkennungssystemen in unter- 
schiedfiche Sprachen zu verringern, sollte also untersucht werden, ob einzelne Lautmodelle fQr die Verwendung 
in verschiedenen Sprachen geeignet sind Hierzu gibt es in [2] bereits Ansatze mehrsprachjge Lautmodelle zu 
ersteDen und diese bei der Spracherkennung in den jeweihgen Sprachen einzusetzen. Dort werden auch die 
25 Begriffe Poly* und Monophoneme eingefuhrt Wobei Poryphoneme Laute bedeuten, deren Lautbildungseigen- 
schaften uber mehrere Sprachen hinweg ahnlich genug sind, um gieichgesetzt zu werden. Mh Monophonemen 
werden Laute bezeichnet welche sprachspezifische Eigenschaften aufweisen. Um fur solche Entwicklungsarbei- 
ten und Untersuchungen nicht jedesmal neue Sprachdatenbanken trainieren zu mQssen, stehen solche schon als 
Standard zur VerfQgung [6 J [4J [7J Ein weiterer Stand der Technik zur mehrsprachigen Verwendung von 
30 LautmodeDen ist nicht bekannt 

Die der Erfindung zugrundeliegende Aufgabe besteht demnach darin, ein Verfahren zur Mehrsprachenver- 
wendung eines hidden Markov LautmodeUes in einem Spracherkennungssystem anzttgeben, durch welches der 
Portieningsaufwand von Spracherkennungssystemen in eine andere Sprache minimiert wird, indem die Parame- 
ter in einem multilingualen Spracherkennungssystem reduziert werden. 
35 Diese Aufgabe wird gemaB den Merkmalen der Patentanspruche 1 und 6 geldst 
Weiterbildungen der Erfindung ergeben sich aus den abi&ngigen Anspruchen. 

Ein besonderer Vorteil des ernndungsgemaSen Verfahrens besteht darin, daB ein statistisches Ahnfichkeits- 
maB angegeben wird, welches es erlaubt, aus einer gegebenen Anzahl von verschiedenen LautmodeEen fur 
ShnEche Laute in unterschiedlichen Sprachen dasjenige LautmodeH auszuwahlen, welches in seiner Charakteri- 
40 stik aOe zur VerfQgung stehenden Merkmalsvektoren der jeweiEgen Laute am besten beschreibt 

Besonders vorteilhaft wird als MaB fQr die Auswahl des besten hidden Markov ModeUes fQr unterschiedEche 
Lautmerkmalsvektoren der Iogarithmische Wahrscheinfichkeitsabstand zwischen den jeweihgen hidden Mar- 
kov ModeQen und einem jeden Merkmalsvektpr ermittelt Hierdurch wird ein MaB zur VerfQgung gestelh, 
welches experimentelle Befunde bezuglich der Ahnlichkeh von einzelnen LautmodeDen und deren Erkennungs- 
45 raten widerspiegelt 

Besonders vorteilhaft wird als MaB fur die Beschreibung eines mSgHchst reprSsentativen hidden Markov 
Lautmodeuesnach der Ernndung der arhhmetische Mittelwert der logarithmischen WfttiTychwnlt^Vy^bfrtan- 
de zwischen jedem hidden Markov Model! und den jeweiBgen Merkmalsvektoren gebildet da hierdurch ein 
symmetrischer Abstandswert erhalten wird 

so Vorteilhaft wird das erfindungsgemaBe BeschreibungsmaB fQr die representative Eigenschaft eines hidden 
Markov ModeQs zur Beschreibung von Lauten in unterschiedlichen Sprachen dadurch gebildet daB die erfin- 
dungsgem&Ben Gleichungen 1 bis 3 angewendet werden, da hierdurch ein geringer Rechenaufwand entsteht 

Besonders vorteilhaft wird fQr die erfindungsgemaBe Anwendung eines BeschreibungsmaBes eine Schrankeo- 
bedingung vorgegeben, mh der eine Erkennungsrate des reprasenu'erenden hidden Markov ModeDs eingesteQt 

55 werden kann, 

Besonders vorteilhaft wird durch das erfindungsgemaBe Verfahren der Speicheraufwand fur eine Sprachbi- 
bliothek reduziert da ein ModeD fur mehrere Sprachen verwendet werden kann und ebenfaOs der Portienings- 
aufwand von einer Sprache in die andere minimiert was einen reduzierten Zeitaufwand fQr die Portierung 
bedingt Ebenso vorteilhaft wird ein geringerer Rechenaufwand bei der Viterbi-Suche ermdgEcht da beispiels- 

60 weise bei mehrsprachigen Eingabesystemen weniger ModeUe QberprQft werden mQssen. 

Besonders vorteilhaft werden bei der Erfindung besondere hidden Markov ModeUe zur Verwendung in 
mehrsprachigen Spracherkennungssystemen generiert Durch die erfindungsgemaBe Vorgehensweise kdnnen 
hidden Markov Lautmodelle fur Laute in mehreren Sprachen zu Polyphonem-Modellen zusammengefaBt 
werden. Hierzu werden Obeiiappungsbereiche der verwendeten Stand ardwflhryrhginKp^y^f^^tfVf it rilnn- 

65 gen bei den unterschiedlichen ModeUen untersucht Zur Beschreibung des Polyphonem-Modefles knwn eine 
beGebige Anzahl von identisch bei den unterschiedlichen Mod lien verwendeten Standardwahrscheinfichkeits- 
dichteverteDungen herangezogen werdea Experimentelle Befunde haben gezeigt dafi vorteilhaft auch mehrere 
StandardverteOungen aus unterschiedlichen SprachmodeDen verwendet werden kdnnen, hne daB die hierdurch 
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bewirkte Verwischung der einzemen Sprachcbarakteristika zu einer signifikant niedrigeren Erkennungsrate 
beim Einsatz dieses Modells fuhren wurde. Als besonders vorteilhaft hat sich hier der Abstandsschwellenwert 
funf zwischen ahnlichen StandardwahrscbemHchkehsverteiliingsdicbten bewSbrt 

Besonders vorteilhaft werden beim Einsatz des erfindungsgemifiea Verfahrens die hidden Markov ModeUe 
mit drei Zustanden aus Anlaut, MitteUaut und Ablaut modelfiert, da hierdurch eine hinrdchende Genairigkeh bei 5 
der Beschreibung der Laute erzielt wird und der Rechenaufwand bei der Erkennung in einem Spracherkenner 
gering bleibt 

Fig. i ze fgt dabei beispielhaft den Aufbau eines einzigen MultiHngualen Phonemes. In diesem Fall ist es das 
Phonem M was dargestellt wird. Die Zahl der Wahrechemlichkeitsdichten und die Erkennungsrate far dieses 
Phonem sind in TabeBe 4 angegeben. 10 



Thr . 


#densit(a,b,c) . 


Engl.[%] 


Germ.[%] 


Span.[%] 


0 


341(0 0 341) 


46.7 


44.7 


59.4 


2 


334(0 14 327) 


45.0 


46.4 


57.5 


3 


303(27 34 280) 


48.0 


45.8 


57.5 


4 


227(106 57 187) 


50.9 


44.1 


58.7 


5 


116(221, 48,72} 


49.3 


43.1 


57.0 


6 


61(285, 22, 34) 


41.2 


38.6 


50.4 



In Fig. 1 ist der Anlaut U der Mittel laut M und der Ablaut R des Phonem-Modelles dargestellt Fflr die 
unterschiedlichen Sprachen Englisch EN, Deutsch DE und Spanisch SP sind die Schwerpunkte der Wahrschein- 
lichkeitsdichteverteflungen der einzelnen verwendeten Standardwahrscheinlichkeitsdichten eingetragen und als 
WD gekennzeichnet Hier ist beispielsweise ein hidden Markov ModeH aus drei Teflzustanden dargestellt Die so 
Erfindung soil jedoch nicht Iediglich auf solche hidden Markov Modefle beschrankt werden, obwohl diese unter 
Berucksichtigung des Kriteriums, das ein niinnnaler Rechenaufwand der Erkennung durchgefuhrt werden soil 
ein gewisses Optimum darsteUen. Die Erfindung kann ebenso auf hidden Markov ModeUe angewendet werden, 
die eine andere Anzahl von Zustanden aufweisen. Durch die Erfindung soil insbesondere erreicht werden, daB 
der Portienmgsaufwand bei der Portierung von Spracherkennungssystemen in eine andere Sprache reduziert 35 
wird und daB die verwendeten Rechenressourcen durch Reduktion der zugrundeliegenden Parameter moghchst 
gering gehalten werden. Beispielsweise kdnnen durch derartige Spracherkennungssysteme begrenzte Hardwa- 
reerfordernxsse besser erfuDt werden, insbesondere wenn ein- und dasselbe Spracherkennungssystem fur Mehr- 
sprachenanwendung in einem Gerat zur Verffigung gesteDt werden soU. 

Zunachst sollte urn das Ziel der Erfindung zu erreichen, die Ahnlichkehen von Lauten in unterschiedlichen 40 
Sprachen auszuschopfen und beim Modellieren zu berficksichtigen, beachtet werden, daB sich die Phoneme in 
verschiedenen Sprachen unterscheiden kdnnen. Die Grimde hierfur bestehen vor alien Dingen in: 

— Unterschiedlichen phonetischen Kontexten, wegen der unterschiedlichen Phonem satze in den verschie- 
denen Sprachen; 45 

— unterschiedlichen Sprechweisen; 

— verschiedenen prosodischen Merkmalen; 

— unterschiedlichen allophonischen Variationen. 

Ein besonders wichtiger Aspekt, welcher dabei zu berficksichtigen ist, besteht im Prinzip der genugenden 50 
wahrnehmmigstechnischen Unterscheidbarkeit der Phoneme [5j Dies bedeutet, daB einzelne Laute in verschie- 
denen Sprachen akustisch unterscheidbar gehalten werden, so daB es fur den einzelnen Zuhdrer Ieichter ist sie 
voneinander zu separieren. Da aber jede einzelne Sprache einen unterschiedlichen Fhonemschatz hat, werden 
die Grenzen zwischen zwei ihnlichen Pfaonemen in jeder einzelnen Sprache sprachspezifisch festgelegt Aus 
diesen Grfinden hat die Auspragung eines bestimmten Lautes eine sprachspezifische Komponente. 55 

Bevorzugt werden die Phoneme mittels kontinuierfichen dichten hidden Markov Modellen (CD-HMM) 
modelliert [3]. Als dichte Funktionen werden haufig Laplace-Mischungen benutzt Bevorzugt besteht dabei jedes 
einzelne Phonem aus drei Zustanden von links nach rechts gerichteten HMM. Die akustischen Merkmalsvekto- 
ren bestehen dabei beispielsweise aus 24 mel-skafierten cepstral, 12 delta cepstral, 12 delta delta cepstral, 
Energie, delta-Energie und delta delta-Energie-KoeffMenten. Beispielsweise wird als Lange des Untersuchungs- 60 
zeitfensters 25 ms gewahlt, wobei die Rahmenabstande 10 ms zwischen den einzelnen Rahmen betragen. Aus 
Grunden der begrenzten Gr6Be des Sprachkorpus werden bevorzugt iediglich kontextunabhangige Phoneme 
generiert Als besonders representatives Phoneminventar wurde jenes aus [4] gewahlt 

Die Idee der Erfindung besteht dabei darin, daB zum einen ein AhnlichkehsmaB zur Verfugung gestellt wird, 
urn aus standardmaUig verfugbaren Sprachph nembibbotheken fur unterschiedliche Sprachen jenes hidden 65 
Markov Model! answahlen zu konnen, welches den Merkmalsvektoren, die aus den unterschiedlichen Lautmo- 
deHen der unterschiedlichen Sprachen abgelehet werden, am nachsten kommt Hierdurch fat es m6gKch, die 
Ahnlichkehen zweier Phonem-Modelle zu ermittem und fiber dieses AhnfichkeitenmaB basierend auf der 
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Differenz der Log-likeEhood-Werte zwischen den LautreaEsierungen und LaatmodeDen eine Aussage zu 
treffen, ob es sich lohnt, einen Laut fur mehrere Sprachen gemeinsam zu modeffieren, bzw. ein betreffendes 
schon bestehendes hidd n Markov Modell fur die Modellierung des Lautes in mehreren Sprachen zu verwenden. 
Hierdurch wird die Zahl der Parameter, webhe bei der Spracherkennung zu berucksichtigen and reduziert, 
5 tndem die Zahl der zu untersuchenden hidden Markov Modelle reduziert wird. 

^ Ein zweher Losungsansatz der Erfindung besteht darin, ein spezieDes Poryphonem-ModeO zur Modellierung 
eines Lautes in mehreren Sprachen zu ersteDen. Hierzu werden zunachst beispielsweise drei Lautsegmente, in 
Form eines Anlautes, MitteOautes und Ablautes gebfldet, deren Zustande aus mehreren Wahrscheinlichkeits- 
dichtefunktionen den sogenannten MiscfaverteOungsdichten mit den dazugehoijgen Dichten bestehen. Diese 

to Dichten der uber verschiedenen Sprachen ahnliehen Lautsegmente werden zu emem multifingualen Codebuch 
zusammengefaBt Somit teOen sich Lautsegmente verschiedener Sprachen die gleichen Dichten. Wahrend das 
Codebuch fur mehrere Sprachen gleichzeing benutzt werden kann, werden beispielsweise die Gewichte, mh 
denen die Dichten gewichtet werden fur jede Sprache getrennt ermittelt 
Zur Bfldung eines geeigneten Ahn&chkeitsmafies werden bevorzugt hidden Markov Modelle mh drei Zustan- 

15 den herangezogen. Das Abstands- oder AhnfichkeitsmaB kann dabei benutzt werden ran mehrere Phonem-Mo- 
deQe zu einem multOingualen Phonem- ModeD zusammenzufassen oder diese anf ge eigne te Weise zu ersetzen. 
Hierdurch kann ein multilingualer Phonemschatz entwickeh werden. Bevorzugt wird zur Messung des Abstao- 
des bzw. zur Bestimmiing der Ahnfichkeit von zwei Phonem-ModeDen des selben Lautes aus unterschiedDchen 
Sprachen eine MeBgrdfie verwendet, welche auf der relativen Entropie basiert [1} Wahrend des Trainings 

20 werden dabei die Parameter der gemischten LaplacedichteverteDungen der Phonem-Modelle besthnmt Wdter- 
hin wird fur jedes Phonem ein Satz von Phonemtokens X als Merkmalsvektor aus einem Test- oder Entwick- 
lungssprachkorpus extrahiert Diese Phoneme kdnnen dabei durch ihr international genormtes phonetisches 
Etikett markiert sein. GemaB der Erfindung werden zwei Phonem-Modelle A* und und ihre zugehdrigen 
Pfaonemtoken Xi und Xj zur Besnmmung des AhnlichkeitsmaBes zwischen diesen unterschiedlichen Phonemen 

25 wie f olgt behandelt 

d^-iogppciixo-iogppqxj) (i) 

Dieses AbstandsmaB kann als Log- likelihood- Abstand angesehen werden, welcher darstellt wie gut zwei 
30 verschiedene Modelle zu dem selben Merkmalsvektor Xi passen, DemgemaB wird der Abstand zwischen den 
beiden Modellen Xi und Xj gemaB: 

dfc*> - logppCjIXj) - logp(XjM (2) 

35 besthnmt. Um einen symmetrischen Abstand zwischen diesen beiden Phonem-Modellen zu erbalten, wird dieser 
bevorzugt gemaB 

. d(X J ;X,) = |(d(X l A J )+<l(X J ;X,)) (3) 

bestimmt. Anhand von experimentellen Befunden konnte f estgesteDt werden, dafi sich durchaus einige Phonem- 
Modelle aus anderen Sprachen besser fur die Verwendung in einem deutschen Spracherkennungssystem eignen, 

45 als ein deutsches Phonem-ModeD. Beispielsweise gflt dies fur die Phoneme k, p und N. FQr diese Phoneme eignet 
sich das englische Phonem-ModeD besser als das deutsche. Wilhrend beispielsweise ein groBer Unterschied 
zwischen dem deutschen und dem englischen Modell fiber den Umlaut aU beobachtet wurde, was bedeutet, daB 
fur beide Laute ein unterschiedliches Symbol im multifingualen Phonemschatz eingefuhrt werden soDte. Ande- 
rerseits konnte fur den Umlaut al im deutschen und im englischen eine groBe Ahnfichkeit f estgesteDt werden, das 

50 bedeutet, daB lediglich ein Phonem-ModeD fQr beide Sprachen gleich gut Verwendung fhiden ^tm Ausgehend 
davon sollte fQr jedes Symbol eines multilingual en Phonemschatzes ein separates statistisches ModeO erzeugt 
werden, In [6] wurden Poryphoneme als solche Phoneme bezeichnet, die ahnfich genug sind, um in verschiedenen 
Sprachen als ein einziges Phonem modeffiert zu werden. Eon Nachtefl dieser Vorgehensweise besteht darin, daB 
fur die sprachspeztfische Erkennung der vollstSndige akustische Raum des Poryphonems verwendet wird. Die 

55 Erfindung hat es jedoch zum Ziel, die K | |rH ch n f*r l a gi gjgf , n und die sprachspezifischen akustischen l ^ggngrhnft^ 
eines multOingualen ModeUs zu kombinieren. GemaB der Erfindung sollen in emem Poryphonem-ModeD solche 
Bereichedes akustischen Raumes eingegrenzt werden, b denen sich die verwendeten Wahrscheinfichkeitsdich- 
ten der einzelnen Phoneme uberiappen, Hierzu wird z. B. eine gruppierende Verdichtungstechnik (agglommera- 
tive density clustering technique) eingesetzt, um gleiche oder ahnCche Auspragungen eines Phonems zu reduzie- 

6o rea Besonders wichtig ist es dabei zu beachten, dafi lediglich die Dichten der korrespondierenden Zustande der 
einzelnen hidden Markov Modelle in den Phonemen zusammengefaBt werden durfen. 

In Fig. 1 ist dabei zu erkennen, daB die jeweiligen Dichten fur die einzelnen Zustande L» M und R in den 
eingegrenzt en Regionen enthalten sind Wahrend identische Dichten Ober die einzelnen Sprachen EN, DE, und 
SP verteilt sind, varueren die Mischungsgewichte sprachabhangig. Bei dieser Bewertung soDte jedoch auch 

65 berficksichtigt werden, daB spezirische Auspragungen eines Phonems in verschiedenen Sprachen in unterschied- 
ficher Haufigkeit auftreten. 

Die Zusammenfassung der unterschiedlichen WahrscheinEchkeitsdichten kann dabei mh emem unterschiedD- 
chen AbstandsschweDenwert fQr die Wahrscheinfichkeitsdichten bei der Dichtehaufung (density clustering) 
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durchgefuhrt werden. Beispielsweise wurde mit einem Abstandsschweflenwert von fQnf die Zahl der verwende- 
ten Dichten um einen Faktor 3 gegenuber dem Ausgangszustand reduziert, hne danrit eine entscheidende 
Verschlechtening bei der Spracherkennungsrate einher ging. In cfiesem Fall wurden 221, 48 and 72 von den 
ursprunglichen 341 Ausgangsdichten fur jeweils die Polyphonem-Region, die Zweisprachen-Region und die 
Einsprachen-Region zusamrnengefafit In Fig. 1 ist eine solche Polyphonemregion als Schnittmenge der Kreise 5 
fur die einzelnen Sprachen dargesteDt Beim Mittellaut M des dargesteOten hidden Markov Modells ist beispiels- 
weise eine Wahrscheinlichkeitsdichte in einer solchen Region als WDP bezeichnet Die Erkennungsraten fur ein 
kompiettes multilinguales Spracherkennungssystem sind dabei in Spalte 4 und 5 der TabeUe 2 ah ML1 and ML2 
angegeben. 



Language 


# Tokens 


LDP[%] 


ML1[%] 


ML2[%] 


English 


21191 


39.0 


37.3 


37.0 


German 


9430 


40.0 


34.7 


37.7 


Spanish 


9525 


53.9 


46.0 


51.6 


Total 


40146 


42.8 


38.8 


40.8 



Wahrend bei der ersten Untersuchung ML1 die konventioneDe Poryphonem-Defiiution aus [6] verwendet 
wurde; was bedeutet, daB der komplette akiistische Bereicb des Poryphonem-Modells bestehend aus der auSeren 
Kontur der Sprachbereiche in Fig. 1, fur die Erkennung verwendet wurde, benutzt die erfindungsgemSBe 
Methode IedigGch einen Teilbereicb daraus. Indem die teOweise Oberlappung der einzelnen Sprachbereiche fur 25 
die einzelne Modellierung des Polyphonem-Modells herangezogen wird, ist beispielsweise eine Verbesserung 
von 2% erzielbar, wie dies in TabeUe 2 in der Spalte fur ML2 dargesteDt ist 
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1. Verfahren zur Mehrsprachen Verwendung eines hidden Markov LautmodeQes in einem Spracherken- 
nungssystem, 

a) bei dem ausgehend von mindestens einem ersten Merkmalsvektor fur einen ersten Laut (UMJl) in 
einer ersten Sprache (SP,EN,DE) und von mindestens einem zweiten Merkmalsvektor fur einen ver- 
gleichbar gesprochenen zweiten Laut in mindestens einer zweiten Sprache (DE£P,EN) und deren 50 
zugehdrigen ersten und zweiten hidden Markov Lautmodellen, ermittelt wird welches der beiden 
hidden Markov Lautmodelle (LyMJt) beide Merkmalsvektoren besser beschreibt, 

b) und bei dem dieses hidden Markov Lautmodell (UM>R) hlr die Modellierung des Lautes in minde- 
stens beiden Sprachen (SP,EN,DE) verwendet wird. 

Z Verfahren nach Anspruch 1, bei dem als MaB fur die Beschreibung eines Merkmalsvektors durch ein 55 
hidden Markov Lautmodell (L^iR) der logarithmische Wahrscheinlichkeitsabstand als log likelihood cEst- 
ance zwischen jedem hidden Markov Lautmodell und mindestens einem Merkmalsvektor gebQdet wird, 
wobei eine kurzerer Abstand eine bessere Beschreibung bedeutet 

3. Verfahren nach Anspruch % bei dem als MaB fur die Beschreibung der Merkmalsvektoren durch die 
hidden Markov Lautmodelle der arithmetische Mitterwert der logarithmischen WalirschemEchkeitsahstan- go 
de bzw. der log likelihood distances zwischen jedem hidden Markov Lautmodell (UMJl) und jedem 
jeweiligen Merianalsvektor gebOdet wird, wobei eine kurzerer Abstand eine bessere Beschreibung bedeu- 
tet 

4. Verfahren nach Anspruch 3, bei dem das erste hidden Markov Lautmodell (UMJl) von einem Phonem X« 
und das zweite hidden Markov Lautmodell von einem Phonem Xj verwendet wird und bei dem als erste und 65 
zwerte Merkmalsvektoren Xi und Xj verwendet werden, wobei der logarhhmische Wahrscheinlichkeitsab- 
stand zum ersten Merkmalsvektor gemafi 
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d^^logppQJXO-logppQJXj) (1) 

bestimmt wird und der logarithmische WahrscheLifichkeitsabstand zum zwehen Merkmalsvefct r gem&B 
d^-IogpCXjl^-bgpCXjUd (2) 

bestimmt wird, wobei zur Erzielung dues symmetrischen Abstandsmafies der arithmetische Mhtelwert za 

d (^i^i)=|( d (^^j) +d (^^i)) < 3 > 



5. Verfahren nach Anspruch 4, bei dem dieses hidden Markov Lautmodell (L»MJt) fur die Modellieruiig des 
Lautes in mindestens beiden Sprachen nur verwendet wird. falls d(XjA0 eine festgelegte SchrankenbediD- 
gungerfGHt 

6. Verfahren zur Mehrsprachenverwendung eines hidden Markov LautmodeUes in einem Spracherken- 
nimgssystem, 

a) bei dem ausgehend von mindestens einem ersten hidden Markov LautmodeO (LMR) fQr emeu 
ersten Laut in einer ersten Sprache (SPfNJDE) und von mindestens einem zwehen hidden Markov 
Lautmodell (L>MJfc) fur einen vergleichbar gesprochenen zweiten Laut in mindestens einer zwehen 
Sprache (D^SP 9 ENX ein Poly Phonem Modell derart gebfldet wird, dafi die fur die Modeffierung des 
ersten und zwehen hidden Markov LautmodeDes (L>M*R) verwendeten Standaidwahrscheinfichkehs- 
verteDungen (WD) bis zu einem festgelegten Abstandsschwellenwert, der angibt bis zu welchem 
maxim alen Abstand zwischen zwei StandaidwahrscheintfchkeitsverteHtingen (WD) diese zusammen~ 
gefugt werden soDen zu jeweils einer neuen StandardwahischeinIichkeitsverteilung(WDP) zusammen- 
gefugt werden und lediglich die zusammengefugten Standardwahi^heinlichkeitsverteihmgen das Poly 
Phonem Model! charakterisieren 

b) und bei dem dieses Poly Phonem ModeD fur die Modelliening des Lautes in mindestens beiden 
Sprachen (DESPJ2N) (LMR) verwendet wird 

7. Verfahren nach Anspruch 6, bei dem als AbstandsschweDenwert 5 f estgelegt wird 

8. Verfahren nach einem der vorangehenden Anspruche bei dem hidden Markov LautmodeHe mit drei 
Zustanden verwendet werden, welche aus den Lautsegmenten Anlaut, MitteDaut und Ablaut gebfldet 
werden. 
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